我们介绍了Yato,这是一种开源工具包,用于文本分析,并深入学习。它着重于文本上的基本序列标签和序列分类任务。Yato在层次结构中设计,支持三种功能的免费组合,包括1)传统神经网络(CNN,RNN等);2)预训练的语言模型(Bert,Roberta,Electra等);3)通过简单的可配置文件,用户定制的神经功能。Yato受益于灵活性和易用性的优势,可以促进对最先进的NLP模型的再现和完善,并促进NLP技术的跨学科应用。源代码,示例和文档可在https://github.com/jiesutd/yato上公开获取。
translated by 谷歌翻译
Covid-19-Pandemic继续在社交媒体上提出各种讨论或辩论的主题。为了探索大流行对人们生活的影响,了解公众对与大流行有关的实体(例如药物,疫苗)对社交媒体的关注和态度至关重要。但是,对现有命名实体识别(NER)或目标情感分析(TSA)数据集培训的模型具有有限的理解与COVID相关的社交媒体文本的能力有限,因为这些数据集并未从医学角度设计或注释。本文释放了Mets-COV,这是一种包含医疗实体的数据集和与COVID相关的推文中的目标情感。 Mets-COV包含10,000条带有7种实体的推文,包括4种医疗实体类型(疾病,药物,症状和疫苗)和3种通用实体类型(人,位置和组织)。为了进一步调查推文用户对特定实体的态度,选择了4种类型的实体(人,组织,药物和疫苗),并用用户情感注释,从而产生了具有9,101个实体(5,278个推文)的目标情感数据集。据我们所知,METS-COV是第一个收集与COVID相关推文的医疗实体和相应情感的数据集。我们通过广泛的实验对经典机器学习模型和最先进的深度学习模型进行基准测试。结果表明,该数据集在NER和TSA任务方面都有大量改进的空间。 METS-COV是开发更好的医学社交媒体工具并促进计算社会科学研究的重要资源,尤其是在流行病学方面。我们的数据,注释准则,基准模型和源代码公开可用(https://github.com/ylab-open/mets-cov),以确保可重复性。
translated by 谷歌翻译
广告视频编辑旨在将广告视频自动编辑为较短的视频,同时保留广告商传达的连贯内容和关键信息。它主要包含两个阶段:视频细分和段组合。现有方法在视频分割阶段表现良好,但遭受了对额外繁琐模型的依赖性问题,并且在细分组合阶段的性能差。为了解决这些问题,我们提出了M-SAN(多模式段组合网络),该网络可以执行高效且连贯的段组合任务。它利用从段中提取的多模式表示形式,并遵循带有注意机制的编码器ptr-decoder ptr-net框架。重要性补偿奖励是为培训M-SAN设计的。我们在广告客户收集的丰富广告方案下,在ADS-1K数据集上使用1000多个视频进行实验。为了评估这些方法,我们提出了一个统一的imp-coh@Time,该指标可以全面评估同时评估产出的重要性,相干性和持续时间。实验结果表明,我们的方法比随机选择和公制上的先前方法更好的性能。消融实验进一步验证了多模式表示和重要性互动的奖励可显着改善性能。 ADS-1K数据集可用:https://github.com/yunlong10/ads-1k
translated by 谷歌翻译
多模式意图识别是理解现实世界中人类语言的重要任务。大多数现有意图识别方法在利用基准数据集的限制中利用多模式信息的局限性,仅使用文本信息。本文介绍了一个用于多模式意图识别(MinTreec)的新型数据集,以解决此问题。它根据电视系列超市收集的数据制定了粗粒和细粒度的分类法。该数据集由2,224个具有文本,视频和音频模式的高质量样本组成,并在二十个意图类别中具有多模式注释。此外,我们在每个视频段中提供带注释的扬声器框架框,并实现扬声器注释的自动过程。 MinTrec对研究人员有助于挖掘不同方式之间的关系,以增强意图识别的能力。我们通过适应三种强大的多模式融合方法来构建基准,从每种模式和模型跨模式相互作用中提取特征。广泛的实验表明,采用非语言方式与仅文本模式相比,实现了实质性改进,这表明使用多模式信息进行意图识别的有效性。表现最佳的方法与人类之间的差距表明了这项任务对社区的挑战和重要性。完整的数据集和代码可在https://github.com/thuiar/mintrec上使用。
translated by 谷歌翻译
近年来,基于变压器的预训练模型已获得了很大的进步,成为自然语言处理中最重要的骨干之一。最近的工作表明,变压器内部的注意力机制可能不需要,卷积神经网络和基于多层感知器的模型也已被研究为变压器替代方案。在本文中,我们考虑了一个用于语言模型预训练的图形循环网络,该网络通过本地令牌级通信为每个序列构建一个图形结构,以及与其他代币解耦的句子级表示。原始模型在受监督培训下的特定领域特定文本分类中表现良好,但是,其通过自我监督的方式学习转移知识的潜力尚未得到充分利用。我们通过优化体系结构并验证其在更通用的语言理解任务(英语和中文)中的有效性来填补这一空白。至于模型效率,我们的模型在基于变压器的模型中而不是二次复杂性,而是具有线性复杂性,并且在推断过程中的性能更有效。此外,我们发现与现有基于注意力的模型相比,我们的模型可以生成更多样化的输出,而背景化的功能冗余性较小。
translated by 谷歌翻译
非接触式粒子操纵(NPM)技术将人类的分析能力大大扩展到了微观和纳米量表,这反过来又大大促进了材料科学和生命科学的发展。尽管从机器人的角度来看,通过电力,磁性和光场取得了巨大的成功,但它仍然是劳动密集型操作,因为在早期准备阶段,专业人力援助以某种方式是强制性的。因此,出现运动颗粒的自动非接触夹捕获是值得的,特别是对于粒子样品罕见,脆弱或接触敏感的应用。利用最新的动态声场调节技术,尤其是通过从微尺度到亚中心尺度的声学操纵的巨大可扩展性,我们提出了一个自动化的非接触式微粒诱捕,该非接触式捕获具有超声梯级系统和显微镜系统和显微镜系统的移动微粒本文的视觉。据我们所知,这项工作的主要贡献是首次通过诉诸机器人方法来实现声学NPM场中完全自动化的微颗粒捕获。简而言之,通过参考其计算和生成的声学陷阱区域来观察并通过双眼微观视觉系统观察并预测粒子的移动状态。在这项工作中,非连接机器人最终效应器的手眼关系问题也解决了。实验证明了这项工作的有效性。
translated by 谷歌翻译
基于步态阶段的控制是步行AID机器人的热门研究主题,尤其是机器人下限假体。步态阶段估计是基于步态阶段控制的挑战。先前的研究使用了人类大腿角的整合或差异来估计步态阶段,但是累积的测量误差和噪声可能会影响估计结果。在本文中,提出了一种更健壮的步态相估计方法,使用各种运动模式的分段单调步态相位大角模型的统一形式。步态相仅根据大腿角度估算,这是一个稳定的变量,避免了相位漂移。基于卡尔曼滤波器的平滑液旨在进一步抑制估计步态阶段的突变。基于提出的步态相估计方法,基于步态阶段的关节角跟踪控制器是为跨股骨假体设计的。提出的步态估计方法,步态相和控制器通过在各种运动模式下的步行数据进行离线分析来评估。基于步态阶段的控制器的实时性能在经际假体的实验中得到了验证。
translated by 谷歌翻译
关于多模式情感分析的现有研究在很大程度上依赖文本方式,不可避免地会引起文本单词和情感标签之间的虚假相关性。这极大地阻碍了模型的概括能力。为了解决这个问题,我们定义了分发(OOD)多模式分析的任务。该任务旨在估计和减轻文本方式对强大概括的不良影响。为此,我们接受了因果推断,该因果通过因果图检查了因果关系。从图中,我们发现虚假相关性归因于文本模式对模型预测的直接影响,而间接相关性通过考虑多模式语义来更可靠。受此启发的启发,我们设计了一个模型不足的反事实框架,用于多模式情感分析,该框架通过额外的文本模型捕获文本模式的直接效果,并通过多模型估算间接模型。在推断期间,我们首先通过反事实推断估算直接效应,然后从所有模式的总效应中减去它以获得可靠预测的间接效应。广泛的实验显示了我们提出的框架的卓越有效性和概括能力。
translated by 谷歌翻译
本文提出了一种新颖的统一特征优化(UFO)范式,用于训练和在现实世界和大规模场景下进行深层模型,这需要集合多个AI功能。不明飞行物的目标是通过对所有任务进行大规模预修。与众所周知的基础模型相比,UFO具有两个不同的重点,即相对较小的模型大小,没有适应性成本:1)UFO以多任务学习方式将广泛的任务挤入中等尺寸的统一模型中并在转移到下游任务时进一步修剪模型大小。 2)不明飞行物不强调转移到新任务。相反,它旨在使修剪模型专门用于一个或多个已经看到的任务。有了这两个特征,UFO为灵活的部署提供了极大的便利,同时保持了大规模预处理的好处。 UFO的一个关键优点是修剪过程不仅可以减少模型的大小和推理消耗,而且还提高了某些任务的准确性。具体而言,UFO考虑了多任务培训,并对统一模型产生了两倍的影响:一些密切相关的任务具有相互利益,而某些任务相互冲突。不明飞行物设法通过新颖的网络体系结构搜索(NAS)方法来减少冲突并保留相互利益。对各种深度表示学习任务(即面部识别,人重新识别,车辆重新识别和产品检索)的实验表明,从UFO中修剪的模型比单件任务训练的对应物更高,但却具有更高的准确性较小的型号大小,验证不明飞行物的概念。此外,UFO还支持发布170亿个参数计算机视觉(CV)基础模型,该模型是该行业中最大的CV模型。
translated by 谷歌翻译
通用事件边界字幕(GEBC)旨在生成三个句子,描述给定时间边界的状态更改。以前的方法仅处理一次单个边界的信息,该信息缺乏视频上下文信息的利用。为了解决此问题,我们设计了一个直接将整个视频作为输入的模型,并为各个边界提供标题。该模型可以通过对边界边界建模来了解每个时间边界的上下文信息。实验证明了上下文信息的有效性。所提出的方法在测试集上达到了72.84分数,我们在此挑战中达到了$ 2^{nd} $。我们的代码可在:\ url {https://github.com/zjr2000/context-gebc}中获得。
translated by 谷歌翻译